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@ Verfahren rum Betrteb eine£ Datenverarbeitungseinrichtun^ 

<§> Verfahren zum Betrieb einer Datehv^rbeitungsotnrich- 
tung mft programmier- und konftgttrierbarer Zellstruktur, 
"»bei ^DatonverarbeftungsoinrWibing etna Zeflmatrix aus 
einer Vielrartl orthogonal zueinander aitgettdneter, homo- 
gen atrukturierter 2fe0en, welche tti Bwar Funktion und 
Varnetzurtg durch eine Ladelogfc fref rjrogrammferbar sindl 
aothfitt dadurch gekeimzefchnet, da£ 
•) atn Konfiguratioftspi^ramrn* bestehend aus einer Fblga 
von Ladaloglk-Bafariian, die Jewefls die Funktion und Vernet- 
amg dar einzelnen Zellen angeben/to daft sich aus alnar Tail 
^**™> spezietle Konfiguretioh mit «pezieller(en) Anwen- 
dunjrfon) vorhanden 1st; euf da* die Ledefogik (30) 

Zugrtff hat (Fig. 3. Fig. 8. Fig. 14. Fig. 15) und daa von tor 
easgefuhrt wtrd, 

bjzuoachst durch eine beatimmte Anzahf von LadeiogSc-Be- 
fehlen aine Kortfiguratton (Fig. 20b) mft spaztaflarfan) An- 
wendung(en), mfttete . dar LadalogOc (30) zu Bagintt afe 
Startkoimguration In dar Zefl-Matrix (Fig. 2. Fig. 3) efege- 
steDt wtrd, 

c) durch aina Statenwchthe (45) odor ainen (Comparator (48) 
die Beendigung dar DurcMuhrung einer Anwendung ainer 
pder mahrerar Zellen erkartnt wird. 
cQdurch die Erkennung aine Ruckmeldung an dia LadeJogik 
(30) erfolgt, die dia Programmabarberumg daa Konftgura- 
tionsr^rainrns mit einer anderen TeWblge (Fig. 21b, 
Rg. 22b) fortsetzt welche nur Zellen umkonfiguriert. also 
neu ersteUt, dia dia Dorchfuhrung aver Funktion fur die 
awuafla Anwandung beretts baandet haben odor nicht 
benotigt warden, so daB die Abarbeitung dar Dateriatrdme 
oer an der aktueflen Konfiguration noch beteiligten. parallel 
£-B. Register 41. 42) . oder geprpe&ned (z.B. Ftg. 22a. 
feummterar 141 und MuttipKzterer 149) arbeitendan Zellen. 
oia sich noch in der Durchfuhrung ihrer Anwandung befin- 
aon, nicht gestort wird. 
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Die vorliegende Erfindung bezieht sich auf Verfahren 
zum Betrieb einer Datenverarbeitungseinrichtung, d. h. 
einer Hardwareeinheit 2ur logischen und arithmeti- 
schen Manipulation (VerknQpfung) von in binarer Form 
vorliegenden Daten (Informationen). 

Nach dem Stand der Technik sind gewohnliche Mi- 
kroprozessoren (z. B. Intel 80 x 86) bereits bekannt. Die- 
se sind aus fest vorgegebenen Einheiten ausgestaltet 
und verarbeiten Programme durch das Auskodieren 
von Bef ehlen (Microcode) und dadurch bestimmte Regi- 
stermanipulationen. 

Ebenfalls bekannt sind sogenannte FPGAs (z. B. aus 
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weils logisch gleicher und stmkturell identisch angeord- 
neter Zellen gezeigt, sowie dessen interne BusstAiktur 
die zur Erleichterung der Programmierung auBerst ho- 
mogen isl Grundsatzlich ist es denkbar innerhalb eines 
DatenfluBprozessors Zellen mit verschiedenen Zellosi- 
ken und Zellstrukturen unterzubringen, urn so die Lei 
stungsfahigkeit zu erhohen, indem zum Beispiel fur 
Speicheransteuerungen (Businterf ace) andere Zellen als 
fur anthmeusche Operationen (Arithmetisch/logische 
Einheiten (ALUs) existieren. Insbesondere kann fur neu- 
ronaJe Netze eine gewisse Spezialisierung von Vorteil 
sem. Den Zellen ist eine Ladelogik zugeordnet, uber die 
die ZelJen je fur sich und gegebenenfalls gruppenweise 
in sogenannte MACROs (Menge von Zellen, welche zu- 



US-Patent 4,870302) die zum Aufbau von komplexen 15 sammen eine definierte AuJX^^™^ 
logiscnen Mruicturen verwendet werden. Auf der faRt 



logischen Strukturen verwendet werden. Auf der 
Grundlage dieser Bausteine lassen sich Rechenwerke 
wie Addierer, Multiplizierer, etc innerhalb des Baustei- 
nes fur die Durchfuhrung einer bestimmten Funktion 
oder Aufgabe konfigurieren. Durch die direkte Imple- 
mentierung einer Funktion in die entsprechenden Lo- 
gikbausteine konnen FPGAs Funktionen oftmals 
schneller ausfuhren als Mikroprozessoren. Obwohl die 
bekannten Bausteine aufgrund ihrer SRAM-Architek- 
tur bereits umkonfiguriert werden konnen, existiert kein 
Mechanismus, urn die Umkonfiguration schnell und dy- 
namisch wahrend der Laufzeit durchfuhren zu konnen. 
insbesondere, wenn nur Teilbereiche des Bausteines mit 
einer neuen Funktion konfiguriert werden sollen, wah- 
rend andere Teile des Bausteines ihre Aufgabe fortset- 
zen. Durch die fehlende Interaktibn zwischen einer kon- 
figurierenden Einheit und dem FPGA an sich, scheiden 
die Bausteine als funktional vollwertiger Ersatz fur Mi- 
kroprozessoren aus. 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, ein Verfahren zum Betrieb einer 
Datenverarbeitungseinrichtung mit progranimierbarer 
und konfigurierbarer Zell-Struktur — wobei eine Zelle 
als . ein logisches Schaltelement ahnlich US 4,870302 



faBt so programmierbar sind, dafi einerseits beliebige 
logische Funktionen, andererseits aber auch die Ver- 
knQpfung der ZeUen untereinander in weiten Bereichen 
venfizierbar sind. Dies wird erreicht indem jeder fcinzel- 
20 nen Zelle ein gewisser Speicherplatz zur Verfugung 
stent, in dem die Konfigurationsdaten abgelegt sind An- 
hand dieser Daten werden Multiplexer oder Transisto- 
ren m der Zelle beschaitet um die jeweilige Zellfunktion 
zugewahrleisten(sieheF1g. 12). 
25 Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, eine Methode fur einen DatenfluBprozessor vor- 
zuschlagen, der zellular aufgebaut ist und dessen Zellen 
uber erne Ladelogik im arithmetisch-logischen Sinne 
30 quasi beliebig neu konfiguriert werden konnen. Dabei 
ist es von auBerster Notwendigkeit, daB die betreffen- 
den ZeUen einzeln un£ ohne Beeinfiussung der ubrigen 
Zellen oder gar einer Stillegung des gesamten Bausteins 
umkonfiguriert werden konnen. On DatenfluBprozes- 
sor gemaB dem vorliegenden Verfahren kann so wah- 
rend eines ersten Arbeitszyklusses als Addierer und 
wahrend eines spateren Arbeitszyklusses als Multipli- 
zierer "programmiertVgenutzt werden, wobei die An- 
zahl der fur die Addition beziehungsweise die Multipli- 
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(ALU) definiert ist — bereitzustellen, das eine hohere 
Paralielitat der Verarbeitung und eine flexiblere Verar- 
beitung von Daten gewahrleistet 

Dabei wird beschrieben, wie Bausteine, die aus einer 
Vielzahl von zwei- oder mehrdimensionalen Zellstruk- 
turen aufgebaut sind, schnell und effizient nach Ablauf 
eines Arbeitsschrittes oder Teilarbeitssdirittes* durch 
Interaktion zwischen dem Baustein und einer konfigu- 
rierenden Einheit, dynamisch neu konfiguriert werden, 
ohne EinfluB auf noch ablaufende Arbeitsschritte zu ha- 
ben. E>ie Notwendigkeit einer Umkonfiguration, bzw. 
das Ende eines Arbeitsschrittes, kann gemaB dieses Ver- 
fahrens automatisch erkannt werden. Dadurch kann auf 
Grundlage dieses Verfahrens ein vollwertiger Ersatz fur 
Mikroprozessoren geschaff en werden. 

Ein Vorteil der vorliegenden Erfindung liegt darin, 
daB die beschriebene Methode eine fiber einen weiten 
Raum skalierbare Paralielitat ermoglicht Hierbei wird 
eine Basis zum schnellen und flexiblen Aufbau von zum 
Beispiel neuronalen Strukturen geschaffen, wie sie bis 
dato lediglich mit erheblichem Aufwand durch Software 
simuliert werden konnen. 

Diese Aufgabe wird durch die im Patentanspruch I 
angegebenen Merkmale beziehungsweise Verfahren- 
schritte gelost. Zur Verdeutlichung der Verfahrens- 
schritte wird beispielsweise ein integrierter Schaltkreis 
(Chip) mit einer Vielzahl insbesondere orthogonal zu- 
einander angeordneter Zellen mit je einer Mehrzahl je- 
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sein konnen. Dabei bleibt die Plazierung der bereits 
geladenen und wahrend des Umladeprozesses nicht tan- 
gierten MACROs erhalten; der Ladelogik beziehungs- 
weise dem Compiler obliegt es, das neu zu Iadende MA- 
CRO innerhalb der freien Zellen zu partitionieren (d h. 
das zu Iadende MACRO so zu zerlegen, daB es sich 
optimal einfugen laBt> Die Ablaufsteuerung des Pro- 
grarams wird dabei von der Ladelogik ubernommen, 
indem sie gemaB dem momentan ausgefuhrten Pro- 
5b grammabschnitt die entsprechenden MACROs in den 
Baustein ladt, wobei der Ladevorgang von der spater 
beschriebenen Synchronisationslogik mitgesteueft 
wird, indem sie den Zeitpunkt des Umladens fesUegt 
Daher entspricht ein DFP gemaB dem beschriebenem 
Verfahren nicht der bekannten von-Neumann-Archi- 
tektur, da die Daten- und Programmspeicher getrennt 
sind. Dies bedeutet jedoch gleichzeitig eine hohere Si- 
cherheit, da fehlerhafte Programme keinen CODE, son- 
dern lediglich DATEN zerstoren konnen. 

Um dem DatenfluBprozessor eine arbeitsfahige 
Struktur zu geben, werden einige Zellen, und zwar unter 
anderem die Eingabe-ZAusgabefunktionen (I/O) und 
Speichennanagementfunktionen (I/O) vor dem Laden 
der Programme geladen und bleiben fur gewohniich 
wahrend der gesamten Laufzeit konstant. 

Dies ist erforderlich um den DatenfluBprozessor an 
seme Hardwareumgebung anzupassen. Die Qbrigeh Zel- 
len werden zu sogenannten MACROs zusammengefaBt 
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und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinflussung von Nachbarzellen oder anderen 
MACROs umkonfiguriert werden. Dazu sind die Zellen 
einzeln und direkt adressierbar. 

Um die Umstrukturierung (das Umladen/Umkonfigu- 
rieren) der Zellen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, w>nn die MACROs mit ihrer aiten 
Tatigkeit fertig sind — eine Synchronisationsschaltung 
als MACRO auf dem DatenfluBprozessor unterge- 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet. Hierzu kann eventuell eine Modifi- 
kation der gewdhnlichen*MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verfugung stellen mussen. 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewohnlich, daB einzelne MA- 
CROS ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. DK das Pro- 
gramrn wird an einer anderen Stelle fortgesetzt und die 
die Zustanrisinformation absendenden MACROs kon- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 
. umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinformationen durch eine Logik (zum 
Beispiel einen (Prioritats-Arbiter) erfolgen. Eine derarti- 
ge — einfache — Logik ist in Fig. 19 gezeichnet Die 
Logik besitzt sieben Eingangssignale durch die die sie- 
ben MACROs ihre Zustandsinf ormation abgeben. In 
diesem Fall soil 0 fur In Arbeit" und 1 fur "ferug" stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik gefuhrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt. liegt ein Signal an einem der sieben Ein- 
gange an, so findet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiel Sync6 als 1 10 dargestellt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedient, seine Aufgabe beendet hat. Liegen gleichzeitig 
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mix zwei Kaskadierungsmethoden denkbar: 

a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im voriiegenden 
5 Beispiel zwei IO-Pins pro Kantenzelle und vier IO- 
Pins pro Eckzelle bedeuteL Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
io gen ist. (Globale Verbindungen zwischen mehreren 
Zellen, fur gewohnlich zwischen einer kompletten 
Zellenreihe oder -spalte — siehe Fig. 1 — ; Iokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 6a zeigt den moglichen Aufbau innerhalb eines 
DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 
b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der benotigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 
serem Beispiel (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwoif IO-Pins pro Eckzelle, Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 

Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 
genutzt werden kann. Um diesen Effekt zu mmimieren, 
kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal* s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damn das Signal un- 
terbrechen. Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 
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mehrere Zustandsinformationen am Eingang an, so gibt 40 sofern der Treiber in Trktate ist, ansonsten wird em 
die Synchronisationsschaltung das Signal mit der hoch- Signal durchgeschleift. Wichtig ist hierbei, daB die Trei- 
sten Priori tat an die Ladelogik weiter; liegen zum Bei- ber der einzelnen globalen Leitungen auch einzeln an- 
spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- gesteuert werden konnen, d. h. ein globales Signal kann 
nistaions-Schaltung zunachst Sync6 an die Ladelogik unterbrochen sein, das Nachbarsignal ist jedoch durch- 
weiter. Nachdem die entsprechenden MACROs umge- 45 geschleift. Somit konnen auf einer globalen Verbindung 



laden sind und somit Sync6 nicht mehr anliegt wird 
Sync4 weitergeleitet usw. Zur Verdeutlichung dieses 
Prinzips kann zum Beispiel der Standard-TTL-Baustein 
74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 
weils optimal und gegebenenfalls dynamisch auf eine zu 
losende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe Vorteil verbunden, daB neue Normen 
oder dergleichen einzig und allein durch Umladen des 



durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsachlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFig. 18). 
so Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festplatte, die im IO-Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 



DatenfluBprozessors umgesetzt werden konnen und 55 durchgereicht werden, indem die DatenfluBprozessoren 



nicht — wie bisher — einen Austausch mit entsprechen- 
dem Anfall von Elektronikschrott bedingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhohung des 
Parallelisierungsgrades, der Rechenleistung, sowie der 
NetzgroBe in neuronalen Netzen fuhrL Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den EinVAusgangs-Pins (IO-Pins) der DatenfluB- 
prozessoren, um moglichst keine Einschrankungen auf 
die Programme zu haben. 

In Fig. 4 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt. Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). Prinzipiell sind da- 
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die Daten von der Plane in den Shared-Memory schrei- 
ben und die Ladelogik sie dort abholt. Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondern eine Harvardarchitektur vorliegt. Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verknupft werden sollen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
spruche. 

Eine besondere Verwendung eines DatenfluBprozes- 
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sors gemaB dem beschriebenem Verfahrens ist darin zu 
seher^daB erin Verbindung mit geeigneten EinVAusga- 
be-Einheiten einerseits und einem Speicher andererseits 
die Basis fur einen kompletten (komplexen) Rechner 
bilden kann. Dabei kann ein GroBteii der lO-Funktio- 
nen als MACROs auf dem DatenfluBprozessor imple- 
mentiert werden und es brauchen momentan lediglich 
Spezialbausteine (Etfiernet-Treiber, VRAMS. . .) extern 
zugefugt zu werden. Bei einer Normanderung oder Ver- 
besserung muB dann wie bereits angedeutet nur das 
MACRO softwareseitig angepaBt werden; ein Eingriff 
in die Hardware ist nicht norwendig. Es bietet sich hier 
an, einen IO-<Eingabe-/Ausgabe-) Stecker festzulegen, 
Qber welchen dann die Zusatzbausteine angeschlossen 
werden konnen. 

Fig. 16 zeigt den stark vereinfachten Aufbau eines 
heute ublichen Rechners. Durch den Einsatz eines DFP- 
Bausteins konnen erhebiiche Teile eingespart werden 
(Fig. 17X wobei die entsprechenden herkommlichen 
Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 
tur- und Videointerface, sowie der parallelen und seriel- 
len SchnittsteUen) als MACROs in die kaskadierten 
DFPs abgelegt werden. Nur die durch einen DFP nicht 
nachbildbaren Teile wie Speicher und Leitungstreiber 
rnit nicht TTL-Pegeln oder fur hohe Lasten mussen ex- 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gunstige Produktion gegeben, da ein und 
derselbe Baustein sehr haufig verwendet wird, das Lay- 
out der Platine ist durch die homogene Vernetzung ent- 
sprechend einfach. Zudern wird der Aufbau des Rech- 
ners durch die Ladelogik bestimmt, die hier fur gewohn- 
. iich nur zu Beginn der Verarbeitung (nach einem Reset) 
das DFP-Array ladt, wodurch eine gunstige Fehlerkor- 
rektur- und Erweiterungsmoglichkek gegeben ist. Ein 
derartiger Rechner kann insbesondere mehrere ver- 
schiedene Rechners tmkturen simulieren, indem einfach 
der Aufbau des zu simulierenden Rechners in das DFP- 
Array geladen wird. Zu bemerken ist, daB hierbei der 
DFP nicht in seiner Funlction als DFP arbeitet sondern 
lediglich ein hochkomplexes und frei programmierbares 
Zellarray zur Verfugung stellt, sich hierbei jedoch von 
herkommlichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet. 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist 
der Aufbau groBer neuronaler Netze. Sein besonderer 
Vorzug liegt hierbei in seiner hohen Gatterdichte, seiner 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- 
genitat. Ein Lernvorgang, der eine Anderung einzelner 
axioraatischer Verbindungen beziehungsweise einzel- 
ner Zellfunktionen beinhaltet ist auf ublichen Baustei- 
nen ebenso schlecht durchf iihrbar, wie der Aufbau gro- 
Ber homogener und gleichzeitig flexibler Zellstrukturen: 
Die dynamische Umkonfigurierbarkeit ermoglicht erst- 
malig die optimale Simulation von Lernvprgangen. 

Die vorliegende Erfindung wird im folgenden anhand 
der weiteren Figuren naher erlautert. Insgesamt zeigen 
Fig. 1 ein aus vier Zellen bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- 
derlichen Leitungsanschlussen ; 

Fig. 2 einen Teiiausschnitt eines integrierten Schalt- 
kreises (Chip) mit einer Vielzahl von Zellen und einem 
separierten SUBMACRO X gemaB Fig. 1 ; 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 
Zellen und einer extern zugeordneten Ladelogik; 

Fig. 4 die Kaskadierung von vier DFPs, wobei die 
Verbindung zwischen den IO-Pins nur schematisch dar- 
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gestelit sind (tatsachlich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Hg. 5 die durch die Kaskadierung erreichte Homoce- 
mtat; 6 

Fig. 6a die Struktur der E/A-Zeilen, wobei die globa- 
Ien Verbindungen nicht herausgefuhrt werden. 

Kg. 6b die Struktur der E/A-Zellen, jedoch mit her- 
ausgefuhrten globalen Verbindungen; 

Fig. 7a die aus Fig. 6a resultierende Kaskadierun* 
wobei erne EckzeUe, sowie die zwei mit ihr kommunizie- 
renden TreiberzeUen der kaskadienen Bausteine (ver- 
glache hierzu Fig. 4) gezeichnet sind; 

Fig. 7b die aus Fig. 6b resultierende Kaskadierung 
wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
15 renden TreiberzeUen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

w 1 ?^. 8 einen bei spiel haften Auf bau einer ZeUe mit 
Muluplexern zur Auswahl der jeweiiigen logischen Bau- 
steine; 

Fig. 9 ein Schaltsymbol fur einen 8-Bit-Addierer; 
Fig. 10 ein Schaltsymbol fur einen aus acht 1-Bit-Ad- 
dierern bestehenden 8-Bit-Addierer nach Fig. 9; 

Fig. 11 eine logische Struktur eines 1-Bit-Addierers 
entsprechendFig. 10; 

Fig. 12 eine ZeUenstruktur des 1-Bit-Addierers ent- 
sprechendFig. 1 1 ; 

Fig. 13 einen der ZeUenstruktur nach Fig. 9 entspre- 
chend aufgebauten 8-Bit-Addierer; 

Fig. 14 ein erstes Ausfuhrungsbeispiel einer Mehrzahl 
mitemander zu einem Rechenwerk gekoppelter inte- 
grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3 ; 

Fig. 15 ein zweites Ausfuhrungsbeispiel einer Mehr- 
zahl miteinander zu einem Rechenwerk gekoppelter in- 
tegrierter Schaltkreise (DatenfluBprozessor) nach 
Fig- 3; 

Fig. 16 den stark schematisierten Aufbau eines her- 
kommlichen Rechners; 

Fi^ 17 den moglichen Aufbau desselben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 

Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
tungs ) Treibern eines DFPs. 

Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefuhrte Synchronisationslogik; 

Fig. 20a, b, c ein Ausfuhrungsbeispiel eines MACRO 
zur Addition zweier Zahlenreihen; 

Fig. 21a eine Multiplikationsschaltung (vergleiche 
Fig. 20); 

Fig. 21b die interne Struktur des DFPs nach dem La- 
den (vergleiche Fig. 20b); 

Hg. 21c die Arbeitsweise des DFPs im Speicher, so- 
wie die Zustande der Zahler 47 f 49; 

Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
dierer aus Fig. 20 und der Multiplizierer aus Fig. 21 zur 
Steigerung der Rechenleistung hintereinander geschal- 
tetsind; 

In Kg. 9 ist ein Schaltsymbol eines 8-Bit-Addierers dar- 
gestellt. Das Schaltsymbol besteht aus einem quadrati- 
schen Baustein 1 mit acht Eingangen A 0...7 fur ein 
erstes Datenwort A und acht Eingangen B 0. . .7 fur ein 
zweites (zu addierendes) Datenwort B. Die jeweils acht 
Emgange Ai, Bi (i = 0. . .7) werden erganzt durch einen 
weiteren Eingang Oein Qber den dem Baustein 1 gege- 
benenfalls em Ubertrag zugeleitet wird. Der Baustein 1 
hat funkuons- und bestimmungsgemaB acht Ausgange S 
0. . .7 fur binaren Summanden und einen weiteren Aus- 
gang Uaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 



DE 44 16 881 C2 



als Anordnung sogenannter SUBMACROS dargestellt 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 
dierer 3 mit je einem Eingang fur die entsprechenden 
Bits des Datenworts und einem weiteren Eingang fur ein 
UbertragsbiL Die 1-Bit-Addierer 3 weisen daruberhin- 
aus einen Ausgang fur den Summanden und einen Aus- 
gang fur den Obertrag Oaus auf. 

In Fig. 11 ist die binare Logik eines 1-Bit-Addierers 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 
dargestellt Analog zu Fig. 10 weist diese Schaltlogik je 
einen Eingang Aj, Bj fur die konjugierten Bits der zu 
verkniipfenden Daten auf; ferner ist ein Eingang Oein 
fur den Obertrag vorgesehen. Diese Bits werden den 
dargestellten Verbindungen beziehungsweise Verknup- 
f ungen entsprechend in zwei ODER-GIiedern 5 und drei 
NAND-Gliedern 6 verknupft, so daB am Ausgangsan- 
schluB Si und am Ausgang fur den Obertrag Oaus die 
einem Volladdierer entsprechenden Verknupfungser- 
gebnisse (Si, Oaus) anstehen. 
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risen sepanert, das letzdich als aus vier einem 1-Bit-Ad- 
dierer entsprechend programmierten Zellen (10 «emaB 
Fig. 12) bestehende Untereinheit zu betrachten ist 

Das in Fig. 13 separierte SUBMACRO "X* ist in 
Fig. 1 als Teil eines integrierten Schaltkreises (Chip) 20 
gemeinsam mit Leitungs- und Datenanschlussen daAe 
stellt Das SUBMACRO "X w besteht aus den vier ZeUen 
10 die entsprechend der orthogonalen Struktur je Seite 
vier Datenanschlusse (also insgesamt sechzehn Daten- 
anschlusse je Zelle) aufweisen. Die Datenanschlusse 
verbinden jeweils benachbarte Zellen, so daB ersichtlich 
wird, wie beispielsweise eine Dateneinheit von Zelle zu 
Zelle durchgeschleust wird. Die Ansteuerung der Zellen 
10 erfolgt einerseits Qber sogenannte lokale Steuerun- 
15 gen, das sind lokale Leitungen, die mit alien Zellen ver- 
bunden sind, und andererseits uber sogenannte globale 
Leitungen, d h. Leitungen, die uber den gesamten inte- 
grierten Schaltkreis (Chip) 20 gef uhrt sind 
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v^n^f elne i g, S ie Bausteme ^ auszu- thogonalen Raster von Zellen 10 belegt ist^ietaSJ >2 

fuhrenden Verknupfungsfunktion entsprechend ver- angedeutet kaM so Z um Beisoiel em^r-rT,^. ^ 

Weise m die Zellstruktur implementiert Der Vorgang 1-Bit-Addierer entsnrerf»>nH fi<t i-> 1 Z^-a 

sue uemao der in Fip. 12 trmifftpn v^n c^^uu^ c: u^_j- - . & ^ . 



gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik 
nach Fig. 11 abgeleiteten Verknupfungslogik fur einen 
1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 bezuglich 
der logischen Bausteine insoweit gleich, daB jeweils ein 
ODER-Glied 5 und ein NAND-GIied 6 aktiviert sind 
Eine dritte Zelle 103 wird nur als Leitungszelle (Leiter- 
bahnzelle) benutzt und die vierte Zelle 10.4 ist bezuglich 
des dritten NAND-Gli edes 6 aktiv geschaltet Das aus 
den vier ZeUen 10.1. . . . 10.4 bestehende SUBMACRO 2 
stent somit stellvertretend fur einen 1-Bit-Addierer, d h. 
ein 1-Bit-Addierer einer Datenverarbeitungseinrich- 
tung nach Art der vorliegenden Erfindung kann uber 
vier entsprechend programmierte (konfigurierte) Zellen 
10.1. ... 10.4 verifiziert werden. per Vollstandigkeit 
halber soil angemerkt werden, daB die einzelnen Zellen 
ein erheblich umfangreicheres Netzwerk von logischen 
Bausteinen, sprich Verknupfungsgliedern, und Invertern 
aufweist, die jeweils dem aktuellen Befehl der Ladelogik 
zufolge aktiv geschaltet werden konnen. Neben den lo- 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 
bindungsleitungen zwischen den jeweils benachbarten 
Bausteinen und zum Aufbau von zeilen- und spaltenwei- 
sen Busstrukturen zur Datenubertragung andererseits 
vorgesehen, so daB uber eine entsprechende Program- 
mierung seitens der Ladelogik quasi beliebige logische 
Verknupfungsstrukturen implementiert werden kon- 
nen). 

Der Vollstandigkeit halber ist in Fig. 13 der Zellen- 
aufbau eines 8-Bit-Addierers in seiner Gesamtheit dar- 
gestellt. Die in Fig. 13 gezeigte Struktur entspricht inso- 55 
weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als 
SUBMACROS 3 dargestellten 1-Bit-Addierer jeweils 

durch eine vier-zellige Einheit 10.1 10.4 ersetzt sind 

Bezogen auf einen DatenfluBprozessor gemaB des be- 
schriebenen Verfahrens bedeutet dies, daB zweiunddrei- 
Big Zellen der zur Verfugung stehenden Gesamtheit 
von Zellen einer zellular mit logisch identischem Layout 
gefertigten Schaltungsplatine seitens der Ladelogik so 
angesteuert und konfiguriert beziehungsweise pro- 
grammiert werden, daB diese zweiunddreiBig Zellen ein 
8-Bit-Addierer bilden. 

In der Darstellung nach Fig. 13 ist uber eine strich- 
punktierte Umrahmung ein SUBMACRO "X" zeichne- 
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Ein vollstandiger integrierter Schaltkreis gemaB dem 
beschriebenen Verf ahren (DFP) 20 ist beispielsweise in 
Fig. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 
steht aus einer Vielzahl im orthogonalen Raster ange- 
ordneter ZeUen 10 und weist an seinen AuBenkanten 
eine entsprechende Anzahl von Leitungsanschlussen 
(Pins) auf, uber die Signale, insbesondere Ansteuersi- 
gnale und Daten zugefuhrt und weitergeleitet werden 
konnen. In Fig. 3 ist wiederum das SUBMACRO "X" 
gemaB Fig. i3/Fig. 1 abgegrenzt; daruberhinaus sind 
auch weitere SUBMACROS separiert, die spezifischen 
Funktionen und Vemetzungen entsprechend zu Unte- 
remheiten zusammengefaBt sind Dem integrierten 
Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
beziehungsweise ubergeordnet, uber die der integrierte 
Schaltkreis 20 programmiert und konfiguriert wird Die 
Ladelogik 30 teilt letztlich dem integrierten Schaltkreis 
20 mit, wie er arithmetisch-logisch zu arbeiten hat 

Anhand von Fig. 14 beziehungsweise Fig. 15 soli im 
folgenden eine Rechnerstruktur beschrieben werden, 
die auf den im vorstehenden definierten und erlauterten 
integrierten Schaltkreis 20 aufbaut 

GemaB dem in Fig. 14 dargestellten ersten Ausfuh- 
rungsbeispiel ist — analog zur Anordnung der Zellen - 
im Orthogonalraster eine Mehrzahl von integrierten 
Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
uber lokale BUS-Leitungen 21 miteinander gekoppelt 
beziehungsweise vernetzt sind Die — beispielsweise 
aus sechzehn integrierten Schaltkreisen 20 bestehende 
— Rechnerstruktur weist EhWAusgangsleitungen IO 
auf, uber die der Rechner quasi mit der AuBenwelt in 
Verbindung stent, d h. korrespondiert Der Rechner ge- 
maB Fig. 14 weist ferner einen Speicher 22 auf, der dem 
dargestellten Ausfuhrungsbeispiel entsprechend aus 
zwei separierten Speichern, zusammengesetzt aus je- 
weils RAM, ROM sowie einem Dual-Ported RAM als 
shared memory zu der Ladelogik geschaltet, besteht, die 
gleichermaBen als Schreib-Lese-Speicher oder auch nur 
als Lese-Speicher realisiert sein konnen. Der soweit be- 
schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
beziehungsweise ubergeordnet, mittels der die inte- 
grierten Schahkreise (DatenfluBprozessor) 20 program- 
miert und konfiguriert und vernetzt werden. 
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Die Ladelogik 30 baut beispielsweise auf einem 
Transputer 31, d h. einem Prozessor mit mikrocodier- 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 
zugeordnet ist Die Verbindung zwischen dem Transpu- 
ter 31 und dem DatenfluBprozessor basiert auf einer 
Schnittstelle 33 fur die sogenannten Ladedaten, d. h. die 
Daten die den DatenfluBprozessor aufgabenspezifisch 
programmieren und 'konfigurieren und einer Schnitt- 
stelle 34 fur den bereits genannten Rechnerspeicher 22, 
d h. den Shared-Memory-Speicher. 

Die in Fig. 14 dargestellte Struktur stellt so einen 
kompletten Rechner dar, der uber die Ladelogik 30 je- 
weils fall- beziehungsweise aufgabenspezifisch pro- 
grammiert und konfiguriert werden kann. Der Vollstan- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 
dung mit der Ladelogik 30 uber Pfeile angedeutet — 
mehrere dieser Rechner vernetzt, <L h. miteinander ge- 
koppelt werden konnen. 

Ein weiteres Ausfuhrungsbeispiel einer Rechner- 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen 
zwischen den benachbarten integrierten Schaltkreisen 
20 noch ubergeordnete zentrale BUS-Leitungen 23 vor- 
gesehen, um zum Beispiel spezifische Ein- beziehungs- 
weise Ausgangsprobleme losen zu konnen. Auch der 
Speicher 22 (Shared-Memory) ist fiber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- 
bunden, und zwar wie dargestellt jeweils mit Gruppen 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 
stellte Rechnerstruktur weist die gleiche Ladelogik 30 
auf, wie sie anhand von Fig. 1 4 erlautert wurde. 

In Verbindung mit Fig. 20a soil eine aus erfindungsge- 
maBen DatenfluBprozessoren aufgebaute Additions- 
schaltung erlautert werden. Ausgegangen wird von zwei 
"Zahlenreihen A D und Bn fur samtliche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe Q = Ai + Bi 
zu bilden, wobei der Index i die Werte 0 <= n < 9 
annehmen kann. 

Bezugnehmend auf die Darstellung nach Fig. 20a ist 
die Zahlenreihe An in einem ersten Speicher RAMI 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse 1000 h; die Zahlenreihe Bn ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe Qi wird in den RAMI eingeschrieben und 
zwar unter der Adresse lOOah. 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung f reigegebe- 
nen Taktzyklen hochzahlt. Dies soil irri Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROs ohne Beeinflussung der an der Umkonfigurie- 
rung nicht beteiligten MACROs dienen. 

Fig. 20a zeigt zunachst die eigentliche Additions- 
schaltung 40, die aus einem ersten Register 41 zur Auf- 
nahme der Zahlenreihe A n und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe Bn besteht Den bei- 
den Registern 41/42 ist ein 8-Bit-Addierer entsprechend 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet. 
Der Ausgang des MACRO 1 fuhrt uber eine Treiber- 
schaltung 43 zuruck zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Additionsschaltung 
40 erfolgt uber eine von einem Taktgenerator T ange- 
steuerte Zustandsmaschine (STATEMACHINE) 45 f die 
mit den Registern 41, 42 und der Treiberschaltung 43 
verbunden ist. 

Die Additionsschaltung 40 wird funktional durch eine 
AdreBschaltung 46 zur Generierung der AdreBdaten fur 
die abzuspeichemden Additionsergebnisse erganzt. Die 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs 



1 (gemaB Fig. 9) zur Biidung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaitet sind: Ober jeweils 
einen Eingang werden die zu verknupfenden Adressen 
fur An, Bn, Cn zugefuhrt. Diese Adressen werden mit den 
5 Ausgangssignalen eines Zahlers 47 addiert und mit der 
Statemachine 45 so verknupf t, daB am Ausgang die neue 
Zieladresse ansteht Der Z&hler 47 und der ^Comparator 
48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
die richtigen Summanden verknupft werden und daB 
io jeweils am Ende der Zahlenreihen, d h. bei n — 9 abge- 
brochen wird Ist die Addition vollendet, so wird in der 
Zustandsmaschine 45 ein STOP-Signal generiert und die 
Schaltung passiv geschalteL Ebenso kann das STOP-Si- 
gnal als Eingangssignal fur eine Synchronisanons-Schal- 
is tung verwenden werden, indem die Synchronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren" gemaB dem nachfolgend be- 
schriebenen ML1 Programm beendet ist und die MA- 
CROS somit durch Neue ersetzt "werden konnen (zum 
20 Beispiel konnte STOP das Signal SyncS sein). 

Der Zeitablauf in der 45 (STATEMACHINE) laBt 
sich dabei wie folgt darstellen, wobei noch anzumerken 
ist, daB in der Zustandsmaschine 45 eine Verzogerungs- 
zeit T (in Form von Taktzyklen) zwischen der AdreBge- 
25 nerierung und dem Datenerhalt implementiert ist: 



— Im Zyklus 1 wird jeweils der Zahler 47 um 1 
erhoht und im Komparator 48 wird gepruft, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 
den die Adressen f ur A, B, C bereehnet; 

— im Zyklus (T + 1) werden die Summanden A, B 
ausgeiesen und addiert; 

— im Zyklus (T + 2) wird die Summe C abgespei- 
chert 
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Mit anderen Worten heiBt dies, daB die Opera tions- 
schleife und die eigentliche Addition gerade (T + 2) 
Taktzyklen erf ordert. Im allgemeinen sind fur T2..3 
Takte erforderlich, so daB verglichen mit den herkomm- 
40 lichen Prozessoren (CP^UX die im allgemeinen 50 bis 
mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 
che Rechenzeit-Reduzierung moglich wird 

Die anhand von Fig. 20 aufgezeigte Konfiguration 
soil im folgenden uber eine hypothetische MACRO- 
45 SpracheMLl nochmals erlautert werden: 
Es existieren die Zahlenreihen A D und B Q 

n:0 n < = 9 
Es sollen die Summen Q = Ai + Bi mit i e N gebildet 
werden. 
50 const n = 9; 

array A[n] in RAM[1] at 1000 h; 
array B[n] in RAM[2] at OdfaOh; 
array C[n] in RAM[1] at lOOah; 
fori - 0 ton with (A[iJB0JC[r[) 
55 AI; 

C = AI =A + B; 
next; 

RAM[1] ist der 1 . Speicherblock 
RAM[2] ist der 2. Speicherblock 
eo at folgt die Basisadresse der Arrays 
for ist der Schleifenbeginn 
next ist das Schleifenende 

with ( ) folgen die Variabien, deren Adressen durch die 
Zahlvariable i bestimmt werden 
65 T folgt die Verzogerungszeit fur eine Statemachine in 
Taktzyklen 

Das Timing der Zustandsmaschine (Statemachine) sieht 
demnach foigendermaBen aus: 
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Zyklus Aktivitat 

1 Zahler erhohen, Vergleich auf > 9 Abbruch) 
und 

Adressen fur A, B, C, berecfanen 

T + 1 A, B, holen und addieren s 
T + 2 Nach C speichern 

Das heiBt — wie bereits erwahnt — die Schleife und die 
Addition bendtigen g'erade einmal T + 2 Taktzyklen. 

Fig. 20b zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem erfindungsgemaBen io 
DFR Die MACROs sind in ihrer etwaigen Lage und 
GroBe eingezeichnet und mit den anhand von Fig. 20a 
erlauterten entsprechenden Nuramern versehen. 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-Blocke 1 und 2: Die Summanden 15 
werden nacheinander in aufsteigender Reihenfolge aus 
den RAM-Blocken 1 und 2 ab Adresse 1000 h bezie- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 20 
Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soil 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwerteL Die Umladung soli zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 25 

Es existieren die Zahlenreihen A n und Bn, wobei A n 
durch das Ergebnis C n des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

n:0 <= n < « 9 
Es sollen die Produkte Ci = Ai x Bf mit i e N gebildet 30 
werden. 
const n = 9 

array A[n] in RAM[1] at lOOah 
array B[n] in RAM[2] at OdfaOh 

array C[n] in RAM[1] at 1015h 35 
f or i = 0 to n with (AQ, BpJ Cp]) 
Al; 

C = Al — A x B; 
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gebildet werden. 
pathD; 
const n = 9; 

array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
for i = 0 to n with ( A[i J Bpj, C[i]) 
Al; 

D = Al = A + B; 
C = Al =DxB; 
next; 



next- 
Die Beschreibung der einzelnen Befehle ist bereits 40 
bekannt, x symbolisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 21a beschrieben, 
Fig. 21b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 
beachten ist die GroBe des Multiplizierers 2 in Vergleich 45 
zu Addierer 1 aus Fig. 20b. In Fig- 21c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, 
Zahler 47 zahlt erneut von 0 bis 9, d. h. er wird beim 
Nachladen der MACROs zuruckgesetzt. 

Besonders zu beachten ist der Zahler 49. Angenom- 50 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, d. h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
fuhrt nun dazu, daB der Zahler wahrend des Programm- 55 
ablaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wurde der Zahler er- 
neut von 0 auf 9 laufen, da er zuriickgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die eo 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefuhrt 
werden, also die Operation: 

Es existieren die Zahlenreihen An und Bn, wobei A n 
durch das Ergebnis von C n des vorher ausgefuhrten 65 
Programms gegeben ist: 

n:0 <= n < =9 
Es sollen die Produkte Q = (Ai + Bi)xBi rait i € N 



path D definiert einen internen nicht aus den DFP 
herausgefuhrten DoppelpfadL Die Operauon bendtigt 
wegen einem zusatzlichen Al einen Taktzyklus raehr als 
vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefuhrt, da zum einen 
die Schleife nur einmal durchlaufen wird, zum zweiten 
nicht umgeladen wird. 

PrinzipieU konnte das Programm auch so formuliert 
werden: 
const n= 9; 

array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at 1 OOah 
for i » 0 to n with (A[i], BfiJ Cp]) 
Al; 

C« A2 = (A+B)xB; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
tiplizierers zusammen kleiner als ein Taktzyklus, kann 
die Operation (A+B)xB auch in einem Taktzyklus 
durchgefuhrt werden, was zu einer weiteren erhebli- 
chen Geschwindigkeitssteigerung fuhrt: 
const n = 9; 

array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
fori - 0 ton with (A[i],B[iiq;i]) 
Al; 

C = Al =(A + B)xB; 
next; 

Anhand von Fig. 8 soil ein einfaches Beispiel eines 
ZeOenaufbaus erlautert werden. Die Zelle 10 urnfaBt 
zum Beispiel ein UND-Glied 51, ein ODER-Glied 52; ein 
XOR-GIied 53, einen Inverter 54 sowie eine Register- 
zelle 55. Die 2Ielle 10 weist daruberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der ZeDe entsprechend Fig. 1) zum Beispiel je sechzehn 
Eingangsanschlussen INI, IN2 auf. Ober diesen 
(16 : 1)-Multiplexer 56/57 werden jeweils die den ge- 
nannten logischen Gliedern UND, ODER, XOR 51. . 53 
zuzufuhrenden Daten ausgewahlt Diese logischen Glie- 
der sind ausgangsseitig mit einem (3 : 1)-Mulupiexer 58 
gekoppelt, der seinerseits mit dem Eingang des Inver- 
ters 54, einem Eingang der Registerzeile 55 und einem 
weiteren (3 : 16)-Multiplexer 59 gekoppelt isL Der letzt- 
genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 
des Inverters 54 und einem Ausgang der Registerzeile 
55 verbunden und gibt das Ausgangssignal OUT ab. 

Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzeile 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist. 

Dem im vorstehenden erlauterten Zellenaufbau, d. h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
mit den Multipiexern 56, 57, 58 und 59 verbunden ist und 
diese den gewunschten Funktionen entsprechend an- 
steuert. 

Sollen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEI" beziehungsweise TUNP entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 5 
Soil zum Beispiel eine NAND-Verknupfung durchge- 
f uhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgafig OUT stent dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung mit programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zellmatrix aus einer Vielzahl 
orthogonal zueinander angeordneter, homogen 
strukturiener Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei program- 
mierbar sind, enthalt, dadurch gekennzeichnet, 20 
daB 

a) ein Konfigurauonsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zeinen Zellen angeben, so daB sich aus einer 25 
Teil folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine * Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfiguration in der Zell-Matrix (Fig. 2, Fig. 3) 35 
eingestelltwird, 

c) durch eine Statemachine (45) oder einen 
{Comparator (48) die Beendigung der Durch- 
fuhrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Erkennung eine Ruckmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 2 1 b. Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, aJ- 45 
so neu erstellt, die die Durchfuhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht bendtigt werden, so 
daB die Abarbeitung der Datenstrdme der an 
der aktuellen Konfiguration noch beteiligten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 
(z- B. Fig 22a, Summierer 141 und Multiplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der Durchfuhrung ihrer Anwendung befinden, 
nicht gestort wird. 55 

Z Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z. B. Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, eo 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge uber eine Ruckmeldung 
an die Ladelogik sicherstellt wird. 
3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 oder 65 
2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhangig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 
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RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Fig. 14, Fig. 15; IO) ausgegeben 
wird. 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltern (Fig. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan- 
gSge XbsSSn^ 
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Abstract 




In connection with a data processing device, in which an integrated circuit (chip) (called a data flow 
processor - DFP - below) is provided with many cells, which in particular are arranged orthogonally to 
each other, are homogeneously structured and each have several logically similar and structurally 
identically arranged components, and the cells are connected to input/output connections of the 
integrated circuit by row and column, possibly combined into groups, according to the invention the cells 
have a load logic, via which they are programmable (configurable) individually and possibly combined 
into groups, in such a way that any logical functions and/or networkings with each other can be verified, 
specifically in such a way that the DFP configuration can be manipulated during operation (or at run 
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